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基于 生成 式 对 抗 网 络 的 画作 的 图 像 合 成 方法 


赵 宇 欣 ,， 王 冠 
(天 津 大 学 数学 学 院 ， 天 津 300354) 


摘 要 : 画作 的 图 像 合成 则 在 将 两 个 不 同 来 源 的 图 像 分 别 作为 前 景 和 背景 融合 在 一 起 ， 这 通常 需要 局 部 风格 迁移 。 
现 有 的 算法 过 程 繁琐 且 耗 时 ， 不 能 做 到 实时 的 图 像 合成 。 针 对 这 一 缺点 ， 提 出 了 基于 生成 式 对 抗 网 络 (GAN) 的 前 向 
生成 模型 (PainterGAN)。PainterGAN 的 自 注 意 力 机 制 和 U-net 结构 控制 合成 过 程 中 前 最 的 语义 内 容 不 变 。 同 时 ， 对 
抗 学 习 保 证 晕 真 的 风格 迁移 。 在 实验 中 ， 使 用 预 训 练 模型 作为 PainterGAN 的 生成 器 ， 极 大 地 节省 了 计算 时 间 和 成 
本 。 实 验 结果 表明 ， 比 起 已 有 的 方法 ，PainterGAN 生成 了 质量 相近 甚至 更 好 的 图 像 ， 生 成 速度 也 提升 了 400 倍 ， 在 
解决 局 部 风格 迁移 问题 上 是 高 质量 、 高 效率 的 。 

关键 词 : 图 像 风 格 迁移 ; 生成 对 抗 网 络 ; 图 像 合成 ; 自 注意 力 机 制 
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Painterly image composition based on generative adversarial net 


Zhao Yuxin, Wang Guan 
(School of Mathematics, Tianjin University, Tianjin 300354, China) 


Abstract: Painterly image compositing aims to harmonize a foreground image inserted into a background painting, which is 
done by local style transfer. The chief drawback of the existing methods is the high computational cost, which makes real- 
time operation difficult. To overcome this drawback, this paper proposed a feed-forward model based on generative adversarial 
network (GAN) , called PainterGAN. PainterGAN introducesd a self-attention network and a U-net to control the semantic 
content in the generated image. Meanwhile, adversarial learning guaranteed a faithful transfer of style. PainterGAN also 
introduced a pre-trained network within the generator to extract features. This allowed PainterGAN to dramatically reduce 
training-time and storage. Experiments show that, compared to state-of-art methods, PainterGAN generated images hundreds 
of times faster with comparable or superior quality. Therefore, it is effective and efficient for local style transfer. 
Key words: image style transfer; generative adversarial net; image compositing; self-attention 
0 引言 生成 式 对 抗 网 络 (GAN)D 在 2014 年 被 提出 , 在 很 多 图 像 
四 问题 上 有 令 人 印象 深刻 的 表现 。 它 由 生成 器 和 鉴别 器 组 成 ， 
图 像 合成 属于 图 像 变换 问题 ， 目 的 是 通过 模型 将 一 个 简 其 中 生成 器 试图 生成 与 真实 数据 相似 的 图 片 ， 而 鉴别 器 则 尽 
单 的 粘贴 合成 图 像 转 变 成 一 个 融合 为 一 体 的 图 像 。 例 如 ， 将 ” 力 识 别 出 这 些 生成 的 图 片 ， 直 到 它们 达到 纳什 平衡 。 在 这 种 
一 个 人 像 (前 景 ) 插 入 到 一 张 照片 (背景 ) 中 , 图 像 合成 期 望 将 两 ”状态 下 , 生成 器 可 以 生成 足够 逼真 的 数据 。 cGAN023 用 卷 积 神 
者 融合 在 一 起 ， 使 得 观察 者 以 为 这 个 人 像 本 来 就 在 照片 中 。 经 网 络 构造 生成 器 和 鉴别 器 ， 并 用 于 解决 图 像 方面 的 问题 。 
羽 为 前 景 和 背景 的 光线 ， 明 亮 ， 纹 理 等 风格 特征 不 同 ， 简 单 IcGAN[3] 将 GAN 和 编码 器 结合 起 来 在 特征 空间 编辑 图 像 局 
的 粘贴 合成 会 造成 不 自然 的 视觉 效果 ， 可 以 被 轻易 判断 为 假 性， 以 控制 图 像 的 生成 。CycleGAN04 用 双向 映射 的 GAN 模 
的 合成 物 。 因 此 需要 一 个 融合 过 程 将 背景 的 部 分 风格 迁移 到 ”型 来 完成 图 像 到 图 像 的 生成 任务 。Zhang 等 人 09 将 自 注 意 力 
前 景 来 ， 使 它们 的 合成 物 在 视觉 上 是 统一 协调 的 。 针 对 照片 ” ”机制 插入 到 GAN 中 ， 图 像 生成 质量 大 幅 提升 。 不 同 于 对 图 
的 图 像 合成 ， 不 同 的 工作 分 别 通过 匹配 前 景 和 后 景 的 统计 特 像 迭 代 优 化 的 思路 , 这 些 模型 极 大 地 提升 了 图 像 的 生成 速度 。 


于 
好 | 


.于 


征 ， 如 直方 图 , 均值 方差 由， 协 方差 外 等 进行 融合 。 针 对 画作 但 是 生成 的 图 像 细 节 性 不 够 ,不 同 像素 区 域 之 间 相 关 性 不 强 。 
的 图 像 合成 , Luan 等 人 BJ] 提出 了 基于 PatchMatch 和 神经 网 络 本 文 基于 GAN 提出 一 个 用 于 画作 图 像 合成 的 全 新 模型 
的 局 部 风格 迁移 模型 。 本 文 也 就 这 一 问题 提出 新 的 思路 。 PainterGAN。 通过 对 抗 训 练 ， 损 失 函 数 驱 动 PainerGAN 学 习 


与 图 像 合成 紧密 相连 的 一 个 概念 就 是 图 像 的 风格 迁移 。 目标 背景 的 明暗 ， 色 彩 ， 纹 理 等 风格 特征 ， 同 时 尽 最 大 可 能 
随 着 深度 学 习习 的 进一步 发 展 ，Gatys 等 人 器 提 出 神经 风格 保留 训练 数据 的 语义 内 容 不 变 。 在 训练 完成 后 ， 将 任意 内 容 
迁移 (neural style transfer-NST)， 通 过 深度 神经 网 络 将 油画 的 的 前 景 图像 输 入 到 模型 中 , PainterAGN 都 可 以 将 其 渲染 成 目 
风格 特征 迁移 到 图 像 上 ， 同 时 保留 了 图 像 本 身 的 内 容 。 考 虑 标的 背景 风格 ， 当 泻 染 完成 的 前 景 图 像 贴 入 背景 中 时 ， 能 完 
到 NST 的 优化 过 程 较 为 耗 时 ，Johnson[ 和 Ulyanov 芭 设计 了 全 融入 其 中 ， 令 观看 者 无 法 判断 该 合成 图 像 的 真 假 ， 

快速 前 向 生成 模型 ， 提 高 了 图 像 生 成 的 速度 。 在 这 之 后 ， 大 ” PainterGAN 以 此 完成 从 背景 到 前 景 的 局 部 风格 迁移 。 在 这 个 
量 的 工作 B10 被 提出 , 积极 推动 了 这 个 领域 的 发 展 。 目 前 这 些 过 程 中 , 一 个 关键 点 是 原始 的 内 容 和 逼真 的 风格 之 间 的 矛盾 。 
工作 都 是 针对 全 局 的 风格 迁移 问题 ， 不 适用 于 画作 的 图 像 合 当前 景 的 内 容 被 赋予 较 大 的 权重 ， 迁 移 的 风格 通常 与 背景 不 
， 例 如 ， 粘 贴 一 束 花 到 焚 高 的 油画 作品 星空 中 ， 一 个 理想 一 致 ， 反 之 ， 当 风格 迁移 更 被 重视 ， 原 本 的 内 容 会 有 一 定 程 
的 融合 结果 是 ， 这 束 花 具有 和 画 中 其 他 植物 相似 的 风格 ， 而 度 的 信息 损失 。 基 于 单 阶段 的 优化 方案 很 难 同时 平衡 二 者 ， 
不 是 集中 夜 室 ， 山 脉 ， 人 物 所 有 风格 于 一 体 。 如 PatchMatchl5。 基 于 二 阶段 的 优化 方案 通过 粗糙 一 细节 1 
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个 阶段 逐步 优化 生成 图 像 ， 但 是 计算 成 本 过 高 ， 如 DPHD]。 
PainterGAN 在 GAN 的 基础 上 作出 改进 ， 通 过 引入 自 注 意 力 
机 制 和 U-net 来 控制 前 景 的 语义 内 容 不 变 ， 同 时 对 抗 训 练 又 
保证 风格 逼真 且 与 背景 一 致 。 在 模型 训练 过 程 中 PainterGAN 
预 训练 的 VGG 替代 生成 器 中 的 编码 器 ， 极 大 地 节省 了 计 
算 空 间 和 时 间 。 实 验 表 明 ， 本 文 模型 在 训练 完成 后 可 生成 与 
现 有 模型 质量 相似 甚至 更 好 的 图 像 ， 却 将 速度 提高 400 倍 。 


1 ”本 文 方法 


GAN 的 基本 思想 是 通过 映射 将 特定 数据 分 布 变 换 为 
标 数据 分 布 。 训 练 过 程 中 对 抗 损失 函数 驱动 整个 模型 的 参数 
天 化 ,最 终 使 之 达到 局 部 最 优点 ,在 画作 的 图 像 合成 问题 中 ， 
PainterGAN 的 生成 器 将 前 景 映射 到 背景 图 像 的 分 布 中 , 使 之 
有 背景 的 风格 特征 。 本 节 将 对 自 注意 力 机 制 ，PainterGAN 
的 网 络 结构 和 模型 的 损失 函数 进行 详细 描述 。 
1.1 自 注 意 力 机 制 的 基本 原理 
自 注 意 力 机 制 在 图 像 生 成 过 程 中 通过 建立 不 同 像素 区 域 
的 相关 性 ， 有 助 于 促进 物体 的 轮廓 完整 。 在 卷 积 计算 中 ， 比 
起 整 幅 图 像 ， 单 个 卷 积 核 通常 提供 很 小 的 感受 野 ， 例 如 3*3 
或 者 4*4。 相 应 地 ， 在 卷 积 计算 的 前 几 层 ， 图 像 的 细 颗 粒度 
信息 可 以 被 捕获 。 随 着 层 数 的 增加 卷 积 核 的 感受 野 逐 渐变 大 ， 
模型 能 抓 取 图 像 中 的 语义 内 容 ， 但 是 深层 的 特征 映射 丢失 了 
很 多 信息 息 ， 不 同 区 域 之 间 建 立 的 联系 很 难 有 效 传递 到 模型 的 
慨 。 因 为 卷 积 计算 的 这 些 局 上限， 已 有 的 风格 迁移 方法 倾向 
于 生成 带 有 破碎 边缘 的 物体 。 自 注意 力 机 制 是 一 个 可 行 的 解 
决 方法 。 
自 注意 力 机 制 通常 用 于 自然 语言 处 理 中 的 前 后 文 语义 理 
解 。Zhang 等 人 (9 首次 将 其 引入 到 GAN 中 用 于 图 像 分 类 。 
在 其 他 的 计算 机 视觉 任务 中 ， 自 注意 力 机 制 也 被 证 明 是 有 效 
的 。 从 理论 上 说 ， 它 对 人 了 眼 更 容易 注意 到 的 图 像 区 域 反 映 更 
强烈 ， 以 此 来 增强 物体 的 显著 性 。 
自 注 意 力 网 络 被 引入 在 PainterGAN 的 生成 器 下 采样 之 
后 ， 上 次 采样 之 前 。 基 本 思想 109 可 以 总 结 为 

a) 将 编码 器 生成 的 特征 映射 输入 到 三 个 独立 的 卷 积 层 ， 
了 (7)=Wix,g(7)=WXh(x)=Wx 中 ， 假 设 输入 为 xe RW,N=h*w 
三 个 卷 积 层 的 系数 矩阵 分 别 为 Wi sRc ,WessRcc ,WesRcc 。 


区 


下 


b) jc)gsC) 用 于 计算 xx) 的 权重 : 
exp(s, ) 
Pi = = f(x) gx,) 
2 exp(ss) (1) 
其 中 Bi; 用 来 衡量 图 像 中 第 i 块 像素 区 域 对 生成 第 j 块 区 域 的 
重要 性 ; 
c) 输出 是 wx) 的 加 权 和 0o=(0,02,…,0n) : 
oj- 六 Ph) O) 
d) 考虑 到 一 开始 自 注 意 力 网 络 没 有 训练 至 局 部 最 优点 ， 
参数 7 用 来 调整 输出 : 
yi = yO: + (3) 
通过 以 上 步骤 ， 自 注意 力 网 络 逐 步 地 发 挥 作用 ， 来 影响 


图 像 的 生成 。 

1.2 PainterGAN 的 网 络 结构 
如 图 1 所 示 ，PainterGAN 主要 包含 两 个 部 分 ， 生 成 器 和 
鉴别 器 。 其 中 生成 器 由 编码 器 和 解码 器 构成 ， 它 们 的 网 络 结 
构 对 称 ， 对 输入 的 图 像 分 别 进行 下 采样 和 重 构 。 为 了 节省 计 
算 空间 和 时 间 , PainterGAN 用 训练 好 的 VGG-19 蔡 代 编码 器 。 
VGG 具有 强大 的 特征 提取 功能 , 能 同时 抓 取 图 像 的 像素 级 信 
息 和 语义 内 容 。 

下 采样 过 程 产生 32*32 的 多 通道 


特征 映射 ， 在 其 进入 解 
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码 器 之 前 , 自 注意 力 网 络 计 算 特征 映射 中 不 同 区 


此 外 , U-net 串联 编码 器 和 解码 器 同一 层级 的 特征 。 
生成 器 的 结构 如 图 2 所 示 。 


的 指导 下 ， 解 码 器 重 构图 像 ， 


图 1 PainterGAN 的 网 络 结构 


NS 


x 域 的 相关 性 。 
在 编码 器 


Fig. 1 Overview of paintergan network Structure 


图 2 PainterGAN 中 生成 器 的 U-net 乡 
Fig.2 The U-net structure of the generator in 


向 注意 力 网 络 ul 


paintergan. 


PainterGAN 的 另 一 个 重要 组 成 部 分 是 鉴别 器 。 基 于 GAN 


的 模型 一 般 向 鉴别 器 输入 


天 数据 和 生成 数据 。 鉴 别 


一 个 简单 的 下 采样 过 程 , 对 输入 数据 给 出 真 或 (1) 假 (0) 的 判断 。 
在 本 文 的 训练 过 程 中 ， 两 种 数据 被 分 割 为 更 小 的 像素 块 输入 


到 模型 的 鉴别 器 中 。 
也 使 其 有 更 高 的 灵活 性 ,能 够 接收 任何 像素 的 
综 上 ， 鉴 别 器 用 于 监督 进行 逼真 的 风格 迁移 ， 
和 U-net 负责 保存 原本 的 语义 内 容 ， 
格 迁 移 过程 中 内 容 和 风格 的 平衡 。 
1.3 损失 函数 
1.3.1 对 抗 损 失 函 数 
正如 前 文中 提 到 的 ， 对 抗 损失 


这 种 处 理 减少 了 鉴别 器 的 待 训练 参数 ， 


图 像 作 为 输入 。 
自 注 意 力 机 制 


它们 互相 合作 ， 保 持 风 


函数 驱动 生成 器 和 鉴别 器 
达到 平衡 ， 二 者 的 参数 在 训练 过 程 中 交 蔡 优化 。 


生成 器 的 损 


Pu(GOJ)= Es .nllog(l— DCG()))] 
鉴别 器 的 损失 函数 为 


(4) 


La (D) 之 E, sc0llog(l D(G(g; )))] 二 E, Saara(b) log D(b,)] (5) 


这 里 的 f,5,8 分别 代表 采样 的 前 景 图 像 ， 


背景 图 像 和 生 


成 图 像 。 损 失 


函数 的 值 显示 了 生成 图 像 在 多 大 程度 上 拥有 


标的 风格 。 
1.3.2 内 容 损 失 函 数 


除去 合理 的 风格 ， 
容 。 为 了 满足 这 个 要 求 ， 


生成 图 像 也 应 该 保存 其 
DTNL7 发 现 当 图 像 x 经 过 生成 器 得 


原本 的 语义 内 


到 G(x) ， 那 么 f(x) 和 cco) 是 统 
映射 到 特征 空间 的 函数 ， 这 种 现象 被 称 为 “大 


的 ， 这 里 的 f 是 指 将 图 像 


constancy”。 它 


背后 的 逻辑 是 ， 外 观 改 变 的 图 像 仍 
特征 。 虽然 这 种 方法 是 可 行 的 , 但 是 
是 一 个 过 于 严 苛 的 限制 ,在 一 定 程度 上 压制 了 


有 本 身 的 高 级 语义 内 容 
实验 表明 ,“ 


‘f-constancy” 


风格 的 多 样 性 。 


本 文采 用 了 像素 级 的 内 容 损 失 函 数 来 衡 和 


输入 图 像 和 生 


成 图 像 在 内 容 上 的 不 同 。 为 了 得 到 更 清晰 的 图 像 细 节 ， 采 用 


L1 范 数 计算 : 
Lo = Es nl G(f) -fh] 
1.3.3 TV 正则 项 


(6) 


为 了 鼓励 图 像 的 局 部 3 


FE 滑 , PainterGAN 采 


了 TV 正则 项 : 


Lrw = > (COG se Xij) 过 (Kin Xj )) 


加 TT 


洒 数 是 


L(G,D)= @ La + Lo + OLry 


(7) 


中 x 表示 在 (i,j) 位 置 的 像素 值 。 综 上 ，PainterGAN 的 损失 


(8) 


其 中 www 分别 代表 对 抗 误差 、 内 容 误差 各 


E 则 项 在 整个 函 


202009.00062v1 


chinaXiv 


录用 定稿 赵 宇 欣 ， 等 : 基于 生成 式 对 抗 网 络 的 画作 的 图 像 合成 方法 


数 中 的 权重 。 
2 实验 


2.1 实验 平台 信息 


本 文 实验 基于 带 有 NVIDIA GTX 1080 Ti GPU 处 理 器 的 


Ubuntu16.04 操作 系统 ， 通 过 Python 语 


完成 。 预 训练 的 VGG-19 作为 生成 器 中 的 编码 器 ， 生 成 的 特征 
映射 “conv4_71” 作 为 自 注意 力 网 络 的 输入 。U-net 连接 对 称 的 下 


采样 和 上 采样 卷 积 层 。 整 个 网 络 训练 200 


言 和 Tensorflow 框架 


个 回合 , 每 批 64 个 数 


据 。 优 化 器 为 Adam， 初 始 学 习 率 为 0.0002， 动 量 为 0.5。 
为 了 加 速 PainterGAN 的 生成 器 收敛 到 最 优点 , 该 网 络 被 


初始 化 为 一 个 重 构 函数 。 只 用 内 容 损 失 


-Ss 


函数 训练 10 个 


I 


口 ， 


生成 器 即 可 生成 与 输入 相近 的 图 像 。 文 献 [18] 也 用 同样 的 想 


法 来 加 速 模型 优化 。 
2.2 ”实验 数据 与 处 理 


本 文 训练 数据 包含 两 部 分 ， 灰 度 图 
画作 。 前 者 作为 生成 器 的 输入 ， 后 者 和 
器 的 输入 。 测 试 数据 只 包括 灰 度 图 像 。 


像 和 呈现 不 同 风格 的 
生成 的 图 像 作为 鉴别 


a) 前 景 。3482 张 灰 度 图 像 来 自 电 影 《 至 爱 梵 高 )， 其 中 


3070 张 用 于 训练 模型 ， 其 余 的 | 
剪 ， 内 容 包 括 植物 ， 建 筑 和 人 物 等 。 
b) 背景 背景 图 像 来 


张 , 《种 树 的 牧羊 人 》 
流派 ， 风 格 不 同 。 所 有 的 训练 数据 被 裁 
同时 经 过 翻转 和 旋转 来 增强 数据 。 

2.3 ”实验 结果 对 比 


于 测试 。 这些 图 像 都 经 过 裁 


4 部 画作 电影 , 其 中 《至 爱 焚 高 》 
共 2959 张 ,《 父 与 女 》 共 2548 张 ,《 回 | 
4104 张 。 四 组 数据 属于 不 同 的 画作 


忆 积 木 小 屋 》 共 1570 


前 至 256*256 大 小 ， 


实验 对 NST[6], Deep Analogy[19], DPH[3] 和 PainerGAN 


进行 对 比 ， 如 图 3~7 所 示 。NST 通过 对 输入 的 白 噪声 不 断 优 


化 进行 全 局 风格 迁移 ， 实 验 结果 显示 这 种 方式 


图 像 合成 ， 合 成 物 可 以 轻易 被 判断 为 假 。 
下 


柑 


合 了 多 种 背景 的 颜色 风格 ， 使 其 与 背景 并 不 协调 。 此 外 ， 


不 适合 画作 的 
图 7 中 的 盘子 
图 


例如 ， 


3 中 的 人 物 背 景 和 图 5 中 的 火车 都 未 能 泻 染 合适 的 风格 。 


en > 


(ce) DPH 


(d) PainterGAN 


图 3 ”四 种 方法 的 实验 结果 对 比 图 ， 背 景 来 自 


《至 爱 焚 高 》 


Fig.3 Comparison of different approaches 


for compositing using 


background from Loving Vincent 
DPH 和 Deep Analogy 的 实验 结果 与 本 文 PainterGAN 的 


具有 可 比 性 的 ， 但 是 个 别 图 


局 *JAb 四 旦 
实验 结果 是 


片 表现 较 差 。 例 如 ， 


在 图 4 中 ，DPH 将 花瓶 融入 到 了 背景 中 ， 使 前 景 的 边缘 线条 


难以 分 辨 ， 这 与 整体 的 风格 不 一 致 。 图 


3 中 的 人 物 背 景 也 有 


bo 


但 是 忽略 前 景 的 语义 内 容 ， 因 此 只 有 在 


同样 的 问题 .Deep Analogy 演 染 前 景 的 风格 与 背景 是 一 致 的 ， 


前 景 和 后 景 内 容 相近 


的 情况 下 表现 较 好 。 与 它们 相 比 ，PainterGANGAN 不 仅 学 习 


了 视觉 上 足够 逼真 的 风格 ， 而 且 在 合 
景 的 语义 内 容 ， 在 此 基础 上 进行 合理 的 


过 程 中 ， 考 虑 到 了 前 
局 部 风格 迁移 。 值 得 


一 提 的 是 ， 本 文 的 实验 中 前 景 统一 被 设置 为 256*256， 但 是 
PainterGAN 在 测试 过 程 中 可 以 接收 任意 大 小 的 图 像 作为 输入 。 
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{oO) DPH (d) PainterGAN 


图 4 ”四 种 方法 的 实验 结果 对 比 图 ， 背 景 来 自 《 至 爱 栖 高 》 
Fig. 4 


Comparison of different approaches for compositing using 


background from Loving Vincent. 


(qd DPH (d) PainterGAN 
图 5 四 种 方法 的 实验 结果 对 比 图 ， 背 景 来 自 《 父 与 女 》 


Fig.5 Comparison of different approaches for compositing using 


background from Father and Daughter. 


(d) PainterGAN 

图 6 四 种 方法 的 实验 结果 对 比 图 ， 背 景 来 自 《 种 树 的 牧羊 人 》 

Fig.6 Comparison of different approaches for compositing using 
background from The Man Who Planted Trees. 


(a) NST 


图 7 四 种 方法 的 实验 结果 对 比 图 ， 背 景 来 自 《 回 忆 积 


EC 


小 屋 》 


Fig.7 Comparison of different approaches for compositing using 


background from The House of Small Cubes. 
2.4 实验 性 能 量化 比较 
在 模型 的 训练 时 间 方 面 ,比较 PainterGAN 在 未 使 用 预 训 
练 的 编码 器 和 使 用 预 训练 的 编码 器 两 种 情况 下 的 计算 时 间 和 
所 需 内 存 。 结 果 显 示 ， 在 达到 相同 的 实验 效果 时 ， 使 用 预 训 
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练 的 编码 器 减少 了 33.82% 的 神经 元 , 将 模型 的 训练 时 间 减 少 

46.49%。 

在 图 像 生成 时 间 方 面 ， 四 种 风格 迁移 方法 中 ，NST 是 全 

局 的 风格 迁移 ，Deep Analogy 对 前 景 和 后 景 有 严格 的 要 求 。 

只 有 DPH 和 PainterGAN 适用 于 对 任意 前 景 的 局 We 

对 此 这 里 对 二 者 的 图 像 合 成 时 间 进 行 比 较 , 数值 结果 见 表 1。 
表 1 DPH 和 PainterGAN 的 生成 速度 


赵 宇 欣 ， 


Tab.1 Comparison of generation time between DPH and paintergan 
背景 + 前 景 DPH PainterGAN 提速 倍数 
至 爱 焚 高 + 人 物 7.50min ls 450x 
种 树 的 牧羊 人 + 帽子 。 6.97min ls 432x 
可 忆 积 木 小 屋 + 盘子 。 7.42min 1s 445x 
父 与 女 + 火 车 7.57min ls 454x 
平均 时 间 及 倍数 7.37min ls 442x 


以 上 结果 显示 , PainterGAN 能 实时 地 生成 图 像 , 比 DPH 
快 400 倍 。 从 这 个 角度 看 ，PainterGAN 能 有 效 学 习 图 像 的 风 
格 ， 并 且 能 将 任何 前 景 高 效 地 融入 到 该 种 风格 的 背景 中 。 
2.5 损失 函数 的 超 参 数 调节 
在 1.3.3 节 中 提 到 ，PainterGAN 的 损失 函数 为 
UG,D=oL tol. + Ly (9) 
其 中 超 参 数 w ww 项 ， 内 容 误 差 项 和 正则 
项 在 驱动 模型 训练 过 程 中 的 重要 程度 .通过 多 次 实验 和 调节 ， 
ww 最 终 分 别 设 为 1, 70, 50。 这 里 选取 3 组 不 同 超 参 数 的 
损失 函数 和 他 们 对 应 的 测试 结果 进行 对 比 ， 如 图 8 所 示 。 


图 8 三 组 不 同 超 参 数 的 测试 结果 对 比 ， 测 试图 像 来 自 《至 爱 梵 高 》 


Fig.8 Comparison ofthree groups of loss function with different 


hyperparameters using image from Loving Vincent. 

图 8 中 (a) 为 输入 的 测试 图 像 .(b) 的 损失 函数 中 @:@: 
分 别 为 1:1:1， 可 以 看 出 图 像 的 原始 内 容 有 部 分 丢失 ， 如 上 
图 中 的 花 办 发生 畸 变 ， 下 图 中 花瓶 的 颈 部 图 案 丢 失 。 于 是 在 
(ec) 中 提高 内 容 损 失 的 权重 ， 设 w: 必 :w 为 1:50:1， 但 是 在 该 
组 实验 中 ， 图 中 物体 的 边缘 有 不 连续 的 情况 ， 如 下 图 中 花茶 
的 轮廓 。(d) 中 相应 提高 TV 项 的 权重 , 设 @ :6%;:@ 为 1:70:50， 
抑制 图 像 生成 过 程 中 的 畸变 ， 也 保留 了 完整 的 语义 内 容 ， 演 
染 效 果 最 好 。 


3 ”结束 语 


PainterGAN 借助 对 抗 训 练 ,以 图 像 到 图 像 的 前 向 生成 方 
式 重 新 考虑 了 图 像 合成 中 的 局 部 风格 迁移 问题 。 它 在 GAN 中 
引入 自 注 意 力 机 制 和 U-net 来 提高 图 像 的 生成 质量 ， 还 进 一 
步 探 索 使 用 预 训练 的 VGG 作为 生成 器 的 编码 器 部 分 ， 在 保 
持 模 型 生成 图 像 质量 不 变 的 情况 下 ,节省 了 训练 时 间 和 内 存 。 
实验 表明 ， 比 起 已 有 的 模型 ， PainterGAN 能 完成 与 它们 质量 
不 相 上 下 的 风格 迁移 ， 甚 至 在 某 些 情况 下 表现 更 好 ， 同 时 极 
大 地 提高 了 图 像 的 生成 速度 ， 实 现 了 实时 的 图 像 合 成 。 但 是 
将 本 文 的 模型 用 在 视频 的 局 部 风格 迁移 上 仍 有 较 大 的 问题 ， 
这 也 是 未 来 一 个 值得 研究 的 工作 。 
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